Si \(X_1, X_2, \ldots, X_n\) son independientes y \(0 \leq X_i \leq 1 \; (i=1,2,\ldots,n)\), entonces para \(\epsilon>0\) y una función \(h\) se da:
\[\mathbb{P}\left[ | E_{in}(h) - E_{out}(h) | \geq \epsilon \right] \leq 2 e^{-2 n \epsilon^2}\]
Para una función binaria f, un conjunto de hipótesis \(\mathcal{H}\), cualquier algoritmo de aprendizaje \(\mathcal{A}\) y cualquier distribución de probabilidad P, se da:
\[E_{out}(g) \leq E_{in}(g) + \sqrt{\frac{8}{N} \ln \frac{4m_{\mathcal{H}}(2N)}{\delta}} ,\; \delta \ \text{nivel de tolerancia.}\]
Donde \(m_{\mathcal{H}}(N)\) está acotado por un polinomio de grado \(d_{VC}\).